智能论文笔记

在启用语音的应用程序中，一个预定的热词在同时用来激活设备以便进行查询。 toavoid重复一个热词，我们提出了一个端到端的流（E2E）打算查询检测器，该查询检测器识别向设备指向的发音，并滤除针对设备的其他发出内容。提出的方法将预期的查询检测器置于E2E模型中，该模型将语音识别的不同组件折叠成一个神经网络。E2E对台面解码和预期的查询检测进行建模，也使我们可以基于早期的部分偏置检测结果，，这对于减少潜伏期和使系统响应很重要。我们证明，与独立的预期检测器相比，检测准确性和600个MSLATENCE的相对相对改善的相对提高一级误差率（EER）的相对提高了22％。在我们的实验中，提出的模型检测用户正在用用户开始讲话后，用8.7％的Eerwithin与设备进行对话。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

随着世界各地的更多用户正在与日常生活中的对话代理商进行互动，需要更好的言语理解，要求重新关注自动语音识别（ASR）和自然语言理解的研究之间的动态（NLU）。我们简要介绍了这些研究领域，并制定了他们之间的当前关系。鉴于我们在本文中进行的观察，我们认为（1）NLU应该认识到对话系统的管道上游使用的ASR模型的存在，（2）ASR应该能够从NLU中发现的错误（3）（3）需要对口语输入提供语义注释的端到端数据集，（4）ASR和NLU研究社区之间应该更强大的协作。

translated by 谷歌翻译